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摘要 :目的 构建 乳腺 瘤 基 因 药 物 网 络 模型 ,提取 并 预测 乳腺 瘤 相 关 基 因 药 物 间 的 关联 。 方 法 基于 "ABC 理论 "和 关联 规则 , 提 
出 一 种 生物 实体 间 关 联 算法 ,以 乳腺 癌 为 例 ,提取 乳腺 癌 相 关 基 因 与 基因 ,药物 与 药物 .基因 与 药物 3 种 不 同 层次 的 关联 ,采用 有 
语言 实现 网 络 模型 的 可 视 化 ,最 后 利用 ROC 曲线 验证 算法 可 靠 性 。 结 果 得 到 乳腺 癌 相关 基因 185 种 ,98 种 不 同 关 联 ; 乳 腺 癌 相 
关 药 物 97 种 ,170 种 不 同 关联 ;乳腺 瘤 相关 基因 与 药物 网 络 中 含有 127 种 基因 和 77 种 药物 , 共 384 种 不 同 关 联 。 结 论 乳腺 癌 的 


的 研究 思路 。 
关键 词 :乳腺 癌 ; 基 因 ; 药 物 ;网 络 模 型 ;R 语 言 


基因 药物 之 间 存 在 大 量 不 同 强度 的 关联 ,并 且 发 现 一 些 具 有 高 度 关联 但 尚未 验证 的 生物 实体 对 ,为 乳腺 癌 个 性 化 诊治 提供 了 新 


Construction and analysis of a breast cancer gene-drug network model 
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Abstract: Objective To construct a breast cancer gene-drug network model for extracting and predicting the correlations 
between breast cancer-related genes and drugs. Methods We developed an algorithm based on the ABC principle and the 


association rules to obtain the correlations between the biological entities. For breast cancer, we constructed 3 different 
correlations (gene-gene, drug-drug and gene-drug) and used the R language to implement the associated network model. The 


reliability of the algorithm was verified by ROC curve. Results We identified 185 breast cancer-associated genes and 98 
associations between them, 97 drugs and 170 associations between them. The breast cancer genes-drugs network contained 127 


genes and 77 drugs with 384 associations between them. Conclusion We identified a large number of different correlations 
between the breast cancer-related genes and drugs and close correlations between some biological entity pairs that have not 


yet been reported, which may provide a new strategy for experimental design for testing personalized breast cancer treatment. 
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科学 文献 为 学 者 提供 了 一 个 巨大 的 信息 财富 , 它 既 
可 以 作为 特定 领域 研究 的 起 点 ,也 可 以 作为 新 的 研究 思 
路 的 信息 来 源 "。 在 海量 的 生物 医学 文献 中 ,生物 实体 
之 间 存 在 大 量 的 关联 ,对 这 些 异 构 数据 进行 系统 分 析 给 
生物 学 家 带 来 前 所 未 有 的 机 遇 ”, 使 得 他 们 能 够 在 个 性 
化 医疗 与 转化 医学 背景 下 ,推断 不 同 生 物 实体 间 的 关联 
FERE” ,然而 ,这 些 关 联 是 非常 复杂 且 稀 玻 的 ,直接 查询 
的 计算 量 非 党 具有 挑战 性 。 
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最 早 也 是 最 著名 的 利用 文献 挖掘 算法 挖掘 实体 关 
联 的 是 Swanson, 他 意识 到 研究 人 员 的 专业 性 越 来 越 
强 , 但 是 文献 阅读 却 不 够 专业 ,使 得 文献 成 为 信息 孤岛 ， 
交互 性 低 ,所 以 他 引入 ABC 理论 促进 知识 发 现 ,以 潜在 
知识 识别 推断 生 没有 直接 关联 的 生物 实体 。 同 时 ,他 也 
强调 这 种 文献 挖掘 方法 只 是 辅助 科学 假设 或 对 假设 生 
成 的 支持 , 若 要 证 实 这 种 关联 必须 通过 科学 严谨 的 生物 
实验 来 证 明 上 。Swanson5% 用 ABC 理论 得 到 鱼油 与 雷 
诺 氏 病 , 以 及 镁 与 偏 头痛 具 有 关联 的 假设 ,并 最 终 用 生 
物 医学 实验 证 明了 其 中 的 关联 。 目 前 ,生物 实体 关联 的 
研究 有 :蛋白质 与 重 白质 的 关联 " ,蛋白质 与 基因 的 关 
联 ” ,药物 与 药物 的 关联 "” ,药物 与 疾病 的 关联 "等 。 但 
尚 无 文献 基于 文本 挖掘 对 乳腺 癌 相 关 基 因 药 物 间 的 关 
联 进行 过 研究 报道 。 

过 去 的 十 年 里 ,在 文献 中 基于 网 络 的 计算 方法 已 得 
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到 普及 ,并 成 为 一 个 研究 药物 疾病 基因 关联 的 新 范式 。 
这 些 方法 的 应 用 包括 疾病 候选 基因 的 排序 ,鉴定 疾 
病 之 间 的 关联 "和 药物 再 定位 等。 例如 ,Hu 和 
Agarwar "从 基因 表达 数据 库 (Gene Expression 
Omnibus) 中 收集 数据 ,创建 了 基于 基因 组 表达 谱 的 人 
类 疾病 药物 网 络 。Bauer 等 "通过 整合 多 种 来 源 ,开发 
了 一 个 综合 的 疾病 基因 关联 网 络 , 用 于 揭示 不 同 疾病 间 
的 关联 。 为 了 系统 地 分 析 药 物 疾 病 基 因 之 间 的 关联 ， 
Daminelli 等 ”通过 在 网 络 中 完善 不 完全 双 派 系 ,提出 
了 一 种 基于 网 络 的 新 型 的 预测 药物 与 基因 药物 与 疾病 
间 关 联 的 方法 ,这 种 方法 对 药物 再 定位 和 发 现 药物 潜在 
的 新 关联 具有 极 大 的 帮助 。 

基于 网 络 的 计算 方法 能 够 通过 将 文献 中 有 用 信息 
分 解 成 小 型 子 网 模型 的 方法 来 分 析 整 个 异 构 网 络 (如 药 
物 疾 病 基因 网 络 ) ,这 种 模式 称 之 为 网 络 基 序 (network 
motifs, NMs)”!, NMs 是 具有 统计 学 意义 的 重复 性 结 
构 模 式 ,是 生物 网 络 中 具有 基本 功能 和 保守 进化 的 最 小 
单位 ,是 重要 的 子 网 模式 ,代表 了 网 络 的 骨干 ,是 节点 
(如 :基因 ,药物 )”” 重 要 组 成 部 分 ,这 些 NMs 也 可 以 形 
成 一 个 大 型 汇总 模块 ,利用 在 重 登 的 NMs 中 形成 的 关 
联 来 实现 特定 的 功能 ,挖掘 隐 含 关联 。 将 这 些 复杂 网 络 
模型 可 视 化 ,并 基于 关联 度 评估 来 定义 表达 量 间 的 相似 
性 ,从 而 形成 数据 分 析 的 网 络 范式 ,有 利于 对 网 络 节点 
间 相 互 作用 关系 的 复杂 系统 和 高 维 数据 进行 分 析 ™。 

本 文 基于 ABC 理论 和 关联 规则 的 文本 挖掘 算法 来 
获取 文献 中 生物 实体 间 的 关联 ,并 基于 网 络 分 析 所 得 关 
联 模型 。 以 乳腺 瘤 为 例 , 先 从 PubMed 数 据 库 中 获取 乳 
腺 癌 相 关 生 物 医学 文献 ,通过 数据 清洗 ,得 到 乳腺 癌 基 
因 与 基因 ,药物 与 药物 间 的 关联 ,再 使 用 ABC 理论 和 关 
联 规则 对 乳腺 癌 基 因 药 物 之 间 是 否 存 在 关联 以 及 关联 
的 程度 进行 量化 ,然后 使 用 R 语 言 实现 网 络 模 型 可 视 
化 ,最 后 分 析 了 网 络 节 点 关联 和 模型 结构 ,用 ROC 曲线 
验证 了 本 文 算法 的 可 靠 性 ,同时 提出 了 实验 性 的 研究 假 
设 , 为 科研 人 员 对 今后 乳腺 癌 相 关 的 诊断 与 治疗 ,疾病 
候选 基因 的 筛选 . 靶 辐 药物 .药物 再 定位 和 个 性 化 医疗 
等 提供 研究 依据 和 研究 思路 。 同 样 , 也 可 将 本 算法 模型 
运用 于 分 析 其 他 临床 疾病 。 


1 资料 和 方法 
1.1 词典 与 文献 资料 

首先 ,分 别 从 Entrez GENE ^ Gene Ontology” , 
OMIM! DrugBank“” 等 重要 数据 库 中 获取 并 建立 
Gene .Drug 标 准 词 典 , 命 名 为 “Gene_Dictionary”( 共 计 
40172 个 人 类 基因 词 条 ) 和 “Drug_dictionary” (共计 
1763 种 药物 词 条 ) 词 典 ,词典 包括 每 个 基因 或 药物 的 标 
准 名 称 、 别 名 、 同 义 词 标准 编号 等 属性 ,在 研究 过 程 中 


需要 以 这 2 个 权威 词典 为 基准 来 过 滤 文 献 。 

然后 在 PubMed 数 据 库 中 使 用 “"breast neoplasms" 
[MeSH Terms] AND ("2013/09/01" [PDAT] : "2015/ 
09/01" [PDAT |) DRRR , FORGE 2 “FASS LEA 
关 的 文献 共计 17037 篇 ,并 以 txt 格式 保存 至 本 地 磁盘 ， 
这 是 本 文 主要 研究 对 象 。 

1.2 数据 清洗 

由 于 生物 医学 文献 专业 性 词汇 较 多 , 若 要 进行 文本 
(如 摘要 ) 挖 气 , 须 先 对 其 进行 数据 清洗 ,结合 实际 需求 ， 
本 研究 采用 以 下 算法 进行 预 处 理 。 

(1) 由 于 大 小 写 不 影响 本 文 最 终 处 理 结果 ,所 以 先 
将 文献 所 有 英文 字母 全 部 转 为 小 写 ;(2) 把 文本 转化 为 
单独 句子 ;(3) 采 用 文本 标准 化 定义 分 割 每 个 句子 ,使 之 
变 成 规范 文本 ; (4) 去 除 标点 符号 以 及 无 意义 词 ,如 : 
“the” “a” “from” “to "等 ;(5) 将 希腊 字母 变 为 英文 音 
译 ,如 :“a 一 Alpha” 等 ;(6) 对 比 规范 文本 与 词典 对 象 名 
称 , 奋 2 者 相同 或 与 词典 中 别名 、 编 号 等 相同 , 则 可 以 认 
定 发 现 了 一 个 实体 对 象 ;(7) 对 于 已 发 现 的 实体 ,在 文献 
中 基于 网 络 模式 分 析 提 取 上 下 文 实体 对 象 的 关联 ;(8) 
词 项 集 ( 即 最 终 得 到 的 实体 集合 ,如 :乳腺 瘤 基 因 词 集 ) 
以 字母 排序 。 

通过 上 述 数据 清理 算法 ,将 收集 到 的 乳腺 癌 相 关 文 
献 处 理 成 规范 文本 项 集 , 依 据 已 知 的 "Gene_Dictionary” 
fll"Drug. dictionary "这 2 个 词典 来 处 理 、 合 并 文献 中 所 
需要 提取 的 基因 .药物 同义词 ,将 其 替换 为 统一 标准 ,以 
便 获取 这 些 生物 实体 间 的 关联 。 

1.3 ABC 理 论 

共 现 的 方法 可 以 确定 2 种 生物 实体 概念 间 的 关联 ， 
若 它 们 出 现在 同一 文章 时 , 则 可 以 认为 这 两 者 具有 关 
联 。 目 前 基于 共 现 来 寻找 2 者 之 间 隐 含 关 联 的 最 主要 
算法 就 是 ABC 理论 ,其 基本 思想 是 :假设 A 和 C 都 与 B 
有 关联 ,那么 A.C 之 间 就 可 能 存在 关联 ,而 且 可 能 这 种 
关联 甚至 是 从 未 发 现 过 的 。 

Frijters 吕 对 “ABC 理论 加 以 改进 ,将 通过 对 实体 
A.C 关 联 的 假设 来 确认 与 量化 隐藏 在 海量 生物 医学 文 
献 中 生物 实体 间 的 关联 的 过 程 , 称 之 为 “封闭 探索 
(Closed Discovery) "进程 ;在 这 个 进程 中 , 知 A.C 之 间 
存在 关联 ,那么 在 文献 中 挖掘 出 共享 的 生物 实体 概念 B 
来 支持 这 个 假设 ,这 个 过 程 称 之 为 “开放 探索 (Open 
Discovery) ”进程 (图 1)。 

与 Frijters 的 ABC 理 论 不 同 的 是 ,本 文 将 其 与 关联 
规则 相 结合 ,算法 如 下 :首先 基于 共 现 得 到 A.B 间 的 共 
现 频次 ,然后 使 用 ABC 理论 推断 是 否 与 实体 C 有 关 , 最 
后 使 用 关联 规则 设 定 阔 值 , 并 计算 关联 程度 和 优先 级 ， 
关联 程度 越 高 , 则 2 个 实体 间 存 在 关联 的 可 能 性 越 大 ; 
知 未 见 相关 文献 报道 ,那么 A 可 能 是 C 的 潜在 靶 点 。 同 
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图 1 文献 内 实体 之 间 隐 藏 关联 的 ABC 原 理 
Fig.1 ABC principle of hidden relationships in literature. Hidden 
relationships in literature between biomedical concepts (e.g., 
genes, drugs), for which A and C have no direct relationship, but 
are connected indirectly via B-intermediates, can be analyzed in a 
closed discovery by summation of the Relevance Score of the 
weakest links, divided by the number of intermediates. 


时 ,算法 应 用 范围 也 有 所 不 同 ,本 文 不 仅 考虑 不 同类 型 
实体 间 的 关联 ,对 同一 类 实体 间 的 关联 也 加 以 探讨 。 
1.4 关联 规则 

在 对 生物 实体 关联 进行 度量 时 ,需要 用 到 以 下 术语 
和 度量 指标 。 

(了 ) 设 三 {1, b, D. 凡是 项 的 集合 , 设 事 务 相 关 的 
数据 D 是 数据 库 事务 的 集合 ,其 中 每 个 事务 7 是 一 个 非 
空 项 集 ,使 得 TC7。 每 一 个 事物 都 有 一 个 标识 符 ,成 为 
TID。 设 和 A 是 一 个 像 集 , 事 务 7 包 含 4, 当 日 仅 当 4C7。 
关联 规则 是 形成 如 A 二 B HAME, IEP ACI, BCI, A+ 
0,Bz0, HAQBZO., SUI A B TESEAS SE D Parr He 
有 文 持 度 S, 其 中 s 是 D 中 事务 包含 在 4UB 的 百分比 , 它 
是 概率 P(4UB) ,表示 事务 包含 集合 4 和 8B 的 并 的 概率 。 
规则 4 志 B 在 事务 D 中 具有 置信 和 度 c, 其 中 c 是 D 中 包含 4 
事务 同时 也 包含 B 的 事务 的 百分比 , 即 条 件 概率 P(A4|B)。 

(2) 支 持 度 support 用 于 衡量 集合 内 各 项 出 现 的 频 
次 阔 值 。 

sup port(A > B) 2 P(AUB) - al/N 

其 中 a 是 词 项 在 所 有 文献 中 出 现 的 频次 ,NN 为 集合 
4 中 所 有 词 项 在 文献 中 出 现 的 频次 总 数 ,两 者 的 比值 即 
可 求 出 某 个 集合 内 各 项 出 现 的 频次 。 

(3) 置 信和 度 confidence 可 以 度量 关联 规则 的 属性 。 
sup port(AU B) 

sup port(A) 

上 式 表 明 规 则 4=>B 的 置信 和 度 可 以 从 A 和 AUB 的 支 
持 度 计 数 推出 。 同 时 满足 最 小 文 持 度 浆 值 (min_sup) 和 
最 小 置信 度 阔 值 (min_conf) 的 规则 称 为 强 规则 ,一 般 使 
用 0%~100% 来 表示 支持 度 和 置信 度 。 

(4) 由 于 支持 度 和 置信 和 度 不 足以 过 滤 掉 无 用 的 关联 
规则 ,可 以 使 用 相关 性 度量 来 扩充 关联 规则 框架 ,如 下 


confidence(A = B)- P(B | A)= 


所 示 : 

A => Blsupport,confidence,correlation] 

我 们 使 用 提升 度 lift 作 为 correlation 的 相关 性 度 
量 ,而 lift 定 义 如 下 :如 果 P(AUB)=P(A)P(B), 则 项 集 4 
的 出 现 独立 于 项 集 B 的 出 现 ;否则 ,项 集 4 和 B 的 事件 是 
相互 依赖 的 和 相关 的 。 依 据 定义 ,lift 能 够 评估 一 个 预 
测 模 型 是 否 有 效 ,体现 集合 {4} 对 {8B} 的 重要 性 , 寿 值 为 
0, 说 明 {4} 与 {8} 之 间 无 关联 ; 知 值 为 正 ,{B} 的 概率 上 
升 ; 若 值 为 负 ,{B} 的 概率 下 降 。 
(P(AUB)) 
P(A)*P(B) 

如 果 该 值 为 1, 说 明 4 与 有 是 独立 的 ,没有 任何 关 
联 ; 若 值 小 于 1, 说 明 4 与 8 是 负 相 关 ,4 的 出 现 可 能 导致 
B 的 不 出 现 ; 若 值 大 于 1, 则 4 和 8B 是 正 相 关 的 ,意味 着 每 
一 个 A 的 出 现 都 蕴涵 着 B 的 出 现 , 值 越 大 出 现 的 几率 也 
就 越 大 , 即 4 的 出 现 “ 提 升 *B 出 现 的 程度 ,一 般 认为 Hift 
的 值 越 高 ,其 关联 规则 越 有 价值 "”。 在 本 文中 ,考虑 到 
实体 可 能 在 文献 中 偶尔 或 对 比 提 及 ,不 是 研究 内 容 ,所 
以 设 定 life 立 值 为 3, 这 样 得 到 的 结果 可 能 会 更 有 意义 。 
1.5 Bü UE 

利用 Gene 词 典 在 已 经 进行 过 规范 化 处 理 后 的 乳腺 
癌 词 项 集 进行 过 滤 , 考 虑 到 部 分 基因 可 能 只 是 在 文献 中 
偶尔 提 及 或 只 是 对 比 介绍 ,没有 具体 的 研究 ,所 以 本 文 设 
XE FLA FEA] Support. count 的 阔 值 大 于 等 于 3; 利 用 
Drug 词 风 对 下 载 下 来 的 并 已 经 清理 过 的 乳腺 癌 文 献 进 行 
全 文 检索 ,并 设 定 药物 的 Support_count 阐 值 大 于 等 于 3。 
1.6 网 络 模 型 算法 

基于 上 述 理论 , 即 可 构建 生物 实体 网 络 模型 ,其 拓 
扑 结构 包含 不 同 的 子 网 模式 ,它们 具有 相同 类 型 的 网 络 
特定 的 处 理 任务 。 在 关联 网 络 中 ,所 有 连接 的 子 网 节点 
整理 成 同 构 模式 ,以 及 使 用 模式 频率 的 计数 方式 。 

综 上 所 述 ,本 文 构建 乳腺 癌 基 因 药 物 网 络 框架 的 算 
TS IG, SE) SCRE BM EL TE TA AE 
support 的 项 集 ( 本 文 主要 指 的 是 过 滤 文 献 后 留 下 的 词 
项 集 ) ,得 到 单个 item 的 项 集 ; 再 次 ,基于 关联 度量 计算 
Hi item 的 项 集 内 之 间 的 关联 ,过 滤 掉 那些 不 满足 最 小 
lift 靖 值 的 项 集 ;最 后 ,基于 第 二 步 和 ABC 理论 生成 新 
item 的 项 集 以 及 它们 之 间 的 关联 ,过 滤 掉 那些 不 满足 最 
小 lift 值 的 项 集 ,得 到 无 向 网 络 模型 数据 集 。 
1.7 及 语言 实现 和 ROC 曲线 

本 文采 用 RR 语言 这 个 开源 的 数据 分 析 系 统 作 为 主 
要 的 研究 工具 , 它 对 特定 的 统计 问题 具有 非常 强大 的 分 
析 与 作 图 能 力 3, 适 用 于 本 研究 中 的 数据 清洗 统计 分 
析 以 及 网 络 模型 可 视 化 操作 。 本 文 使 用 ROC 曲线 判断 
算法 性 能 。ROC 曲线 现 以 广泛 应 用 于 医学 诊断 实验 性 
能 的 评价 ,同样 也 适应 于 判别 模型 诊断 效果 ”。 


lift(A,B) = =(a*N)((at+c)*(a+b)) 
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2 结果 
2.1 乳腺 癌 基 因 之 间 的 关联 


表 1 部 分 乳腺 癌 相 关 基 因 及 其 Support 值 


得 到 185 种 不 同 基 因 及 其 Support 值 ( 表 1)。 


Tab.1 Part of breast cancer-associated genes and their Support values 


Gene Name Gene Description Support Count Support 
ERBB2 Erb-b2 receptor tyrosine kinase 2 1045 26.5496 
BRCAI Breast cancer 1, early onset 173 4.3996 
BRCA2 Breast cancer 2, early onset 130 3.3096 
TP53 Tumor protein p53 123 3.1296 
EGFR Epidermal growth factor receptor 107 2.7296 
MTOR Mechanistic target of rapamycin (serine/threonine kinase) 107 2.72% 
PIK3CA Phosphatidylinositol-4,5-bisphosphate 3-kinase, catalytic subunit alpha 69 1.75% 
VEGFA Vascular endothelial growth factor a 69 1.75% 
PTEN Phosphatase and tensin homolog 52 1.32% 
AR Androgen receptor 47 1.19% 
HIFIA Hypoxia inducible dn ario EE helix-loop-helix 45 1.14% 
MMP9 Matrix metallo peptidase 9 45 1.1496 
CCNDI Cyclin dl 42 1.0796 
PTGS2 Prostaglandin-endoperoxide synthase 2 (prostaglandin g/h synthase 40 1.02% 


and cyclooxygenase) 


CD44 Cd44 molecule (Indian blood group) 37 0.94% 


由 表 1 可 以 发 现 ,基因 ERBB2( 鸟 类 v-erb-b2 成 红 
细胞 白血病 病毒 基因 同 源 2, 神 经 /成 胶 质 细胞 瘤 衍 生 瘤 
基因 同 源 ) 在 近 2 年 的 文献 中 出 现 频次 最 高 ,属于 研究 
热点 。 

基于 前 述 网 络 模式 算法 ,对 所 有 乳腺 癌 基 因 之 间 关 
联 的 Lift 值 进行 计算 ,选取 Lift 值 大 于 3 的 基因 关联 ,去 
重 后 ,最 终 得 到 88 种 不 同 基因 以 及 它们 之 间 存 在 的 98 
种 不 同 关联 ,并 以 此 生成 乳腺 癌 基 因 网 络 模型 (图 2)。 

图 2 的 基因 关联 网 络 中 ,大 部 分 节点 的 度 很 小 , 少 
部 分 节点 (ERBB2 等 ) 的 度 较 大 ,符合 究 律 分 布 ,属于 无 
标 度 网 络 ,这 种 网 络 的 特点 就 是 对 随机 故障 的 鲁 棒 性 和 
针对 性 蓄意 攻击 的 脆弱 性 。 在 生物 医学 领域 中 , 则 说 明 
关键 节点 的 重要 性 。 例 如 :网 络 图 中 的 ERBB2 与 
MUC1 等 11 种 不 同 基 因 存 在 关联 ,意味 着 ERBB2 可 能 
在 乳 脾 癌 基 因 相 互 作用 中 有 着 极为 重要 的 地 位 ,也 是 研 
究 热点 。 

由 图 2 中 可 以 看 出 ,单独 关联 的 基因 有 :ATM 和 
CHEK2、TNFSF11 和 TNFRSF11A、BCL2L1 和 BAX、 
CA9 和 SLC2A1、SMAD2 fil SMAD3, MAPILC3A fill 
BECNI , ABCC2 fll ABCBI ,RHOA 和 RHOC 这 8 对 基 
因 与 其 它 基因 没有 关联 ;基因 CYP1B1、CYP19A1 HE 


CYP1A1 相关 ,基因 CASP9、CASP3 只 与 CASP7 相 关 ; 
网 络 模型 中 的 相关 度 较 高 的 基因 节点 为 :ERBB2、 
EGFR MTOR .TP53 . PLK3CA 和 BACR2 这 6 种 基因 , 
同时 这 6 种 基因 也 是 近 两 年 来 在 乳腺 癌 疾 病 方 面 研 究 
中 的 热点 。 
2.2 乳腺 癌 药 物 之 间 的 关联 

得 到 乳腺 癌 相 关 药 物 共 计 113 种 及 其 Support 值 
( 表 2)。 

基于 前 述 网 络 模型 算法 ,对 所 有 乳腺 癌 基 因 的 关联 
强度 与 Lift 值 进行 计算 ,为 了 更 好 分 析 具 有 高 关联 度 的 
药物 ,我们 设置 Lift 的 冰 值 为 10, 得 到 97 种 药物 和 它们 
之 间 的 170 种 高 关联 ,生成 乳腺 癌 药 物 网 络 模型 (图 3)。 

图 3 的 药物 关联 网 络 模型 与 图 2 类 似 ,也 是 只 有 少 
部 分 节点 (长 春花 碱 等 ) 的 度 较 大 ,也 属于 无 标 度 网 络 。 
其 中 的 关键 节点 有 : 吉 非 蔡 尼 注射 用 顺 铂 等 ,这 些 关键 
节点 在 乳腺 癌 药 物 研 究 中 属于 研究 热点 ,并 且 可 能 与 其 
他 多 种 药物 之 间 负 存在 相互 作用 。 

图 3 中 删除 了 16 种 药物 ( 烽 肉 醇 等 ) 孤 立 节点 ,余下 
97 种 药物 。 可 以 发 现 , 酮 咯 酸 和 双 毛 分 酸 这 2 种 药物 最 
为 特殊 ,只 具有 单 相关 性 5 ,上 且 与 其 它 药物 均 无 关联 ， 
且 关 联 度 最 高 。2 种 药物 之 间 关 联 度 排名 为 第 2 至 第 5 
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2 乳腺 癌 基 因 网 络 模 型 


Fig.2 Breast cancer genes network model. 


表 2 部 分 乳腺 癌 相 关 药 物 及 其 Support 值 


Tab.2 Part of breast cancer-associated drugs and their Support 


values 

DrugBank_ID Drug_Name Support Count Support 
DB00675 Tamoxifen 493 10.8496 
DB00072 Trastuzumab 429 9.4396 

DB00997 Doxorubicin 320 7.0396 

DB01229 Paclitaxel 269 5.91% 

DB00783 Estradiol 231 5.0896 

DB00544 Fluorouracil 215 4.7396 

DB01248 Docetaxel 204 4.4896 

DB00531 Cyclophosphamide 197 4.3396 

DB01259 Lapatinib 147 3.23% 

DB00445 Epirubicin 108 2.37% 

DB00112 Bevacizumab 100 2.2096 

DBO1101 Capecitabine 93 2.04% 

DB00877 Sirolimus 90 1.9896 

DB01006 Letrozole 76 1.6796 

DB00515 Cisplatin 74 1.6396 
DB01217 Anastrozole 73 1.6096 
DB06366 Pertuzumab 72 1.5896 
DB00990 Exemestane 65 1.4396 
DB01590 Everolimus 61 1.3496 
DB00947 Fulvestrant 56 1.2396 


PARIA ERES RC) RR UL re TED E SRUSE E 
伐 他 汀 与 气 伐 他 汀 、 地 塞 米松 与 米 非 司 酮 ,对 这 些 药物 
存在 的 关联 ,已 有 多 篇 文献 进行 了 报道 ,如 文献 [37-40] 
等 。 乳 腺 瘤 药物 研究 热点 排名 前 5 的 是 :他 英 昔 芬 . 曲 
妥 珠 单 抗 , 阿 霉 素 .紫杉醇 和 注射 用 雌 二 醇 。 图 中 还 可 
以 发 现 ,乳腺 瘤 相关 药物 之 间 的 关联 较 多 ,与 其 它 药 物 
关联 最 多 的 是 : 吉 非 蔡 尼 和 顺 铂 ,这 2 者 分 别 与 其 它 10 


图 3 乳腺 癌 药 物 网 络 模型 


Fig.3 Breast cancer drug network model. 


种 药物 相关 ;其 次 ,而 与 其 它 8 种 药物 相关 的 药物 为 : 白 
细胞 生成 素 .酒石酸 长 春 瑞 滨 RIMER .长 春花 碱 、 依 
西 美 坦 和 卡 培 他 滨 这 6 种 药物 。 有 16 种 药物 (七 氟 配 
等 ) 具 有 单 相关 性 。 
2.3 乳腺 癌 基 因 药 物 之 间 的 关联 

在 已 得 到 的 乳腺 癌 基 因 关 联 和 药物 关联 的 基础 上 ， 
基于 ABC 理论 来 判断 乳腺 癌 相 关 基 因 与 药物 之 间 是 否 
存在 关联 或 隐 含 关联 ,同时 计算 出 两 者 之 间 的 
Relevance Score 值 ,去 重 后 得 到 639 种 不 同 关 联 。 再 利 
用 前 述 关 联 公 式 得 到 乳腺 癌 基 因 药 物 之 间 关 联 的 Lift 
值 (结果 四 舍 五 入 取 整 ), 设 定 的 Lift 阐 值 大 于 等 于 3, 所 
以 最 终 得 到 基因 127 种 ,药物 77 种 ,它们 之 间 存 在 384 
种 不 同 关 联 数 ( 表 3), 同 时 以 基因 与 药物 之 间 的 Lift 值 
排序 建 表 ( 表 4)。 

从 表 3 中 可 以 发 现 , 有 些 基 因 只 与 1 种 药物 具有 关 
联 , 如 :ATM 与 咖啡 因 、BMII1 -RURE CA9 与 紫 杉 
醇 等 36 种 基因 。 同 样 ,有 些 药 物 只 与 1 种 基因 相关 ,如 : 
利多 卡 因 、 酒 石 酸 长 春 瑞 滨 \ 长 春花 碱 、 腺 并 等 10 种 药 
物 。 从 表 4 可 以 得 出 ,基因 与 药物 关联 度 最 高 的 是 Atg7 
与 腺 味 吟 .CAV1 与 咖啡 因 .CAV1 与 氛 伐 他 洒 .PGRMC1 
与 雌 激素 三 醇 ,这 4 种 关联 强度 并 列 第 一 。 同 样 依据 前 
述 网 络 框架 算法 ,构建 她 腺 癌 基 因 药 物 网 络 模型 (图 4)。 

由 于 乳腺 癌 基 因 药 物 节 点 关联 较 多 ,为 了 更 加 清楚 
地 显示 可 视 化 效果 ,本 文 分 别 采用 树 状 、 基 于 度 和 节点 
的 方法 构建 网 络 模型 (图 4A B.C), ÉL AA 中 黄色 节点 
为 基因 ,紫色 节点 为 药物 ,每 行 只 与 相 邻 行 存在 关联 ,有 
助 于 观察 关键 节点 和 特殊 节点 的 关联 情况 ;图 4B 中 的 
文字 大 小 体现 该 节点 的 度 , 字 体 越 大 ,说 明 该 节点 在 网 
络 结构 中 的 位 置 越 关 键 ,可 以 很 容易 得 到 雌 二 醇 、 阿 霉 
3& MTOR 等 是 乳腺 癌 基 因 药 物 网 络 模型 的 关键 节点 ， 
也 就 可 能 是 研究 乳腺 癌 相 关 基 因 药 物 间 关 联 的 重要 突 
破 点 ;再 结合 图 4C 可 以 发 现 其 模型 结构 也 是 属于 无 标 
度 网 络 。 

图 4 中 的 乳腺 癌 基 因 药 物 之 间 存 在 较 多 关联 ,单独 


201712.02109v1 


chinaXiv 


http://www.j-smu.com 


ChinaXiv 合 作 期 刊 


J South Med Univ, 2016, 36(2): 170-179 * 175 + 


表 3 部 分 乳腺 癌 相 关 基 因 药 物 关联 以 及 其 Lift 值 
Tab.3 Part of breast cancer-associated gene-drug correlations 
and their Lift value 


Gene_Name DrugBank_ID Drug_Name Lift 
ABCBI DB00997 Doxorubicin 13 
DB01248 Docetaxel 12 
DB00563 Methotrexate 10 
DB01229 Paclitaxel 9 
DB00445 Epirubicin 9 
DB00531 Cyclophosphamide 5 
DB00544 Fluorouracil 4 
ABCG2 DB01204 Mitoxantrone 199 
DB00640 Adenosine af 
DB00762 Irinotecan 50 
DB00655 Estrone 22 
DB01006 Letrozole 5 
DB01248 Docetaxel 4 
DB00997 Doxorubicin 4 
DB00445 Epirubicin 4 
ACTA2 DB00531 Cyclophosphamide 17 
DB00997 Doxorubicin 5 
AKTI DB00958 Carboplatin 14 
DB01259 Lapatinib 4 
ALDHIAI DB00531 Cyclophosphamide 17 
DB01229 Paclitaxel 12 


成 对 出 现 的 基因 与 药物 只 有 1 对 ,为 :EZH2 与 阿 糖 胞 
苷 。 岁 中 关联 度 大 于 5 的 基因 有 15 个 ,关联 度 排名 前 $ 
的 是 :MTOR EGFR VEGFA .ERBB3 和 ABCG2; 关 联 
度 大 于 5 的 药物 有 24 种 ,关联 度 排名 前 5 的 是 :注射 用 
MEWS SAE RIOR BR .他 莫 昔 分 和 拉 帕 替 尼 。 乳 腺 
癌 基 因 与 药物 只 有 具有 单 相关 性 的 有 45 个 ,如 :APEXI1、 
ATMBMI1 等 ;而 乳腺 癌 药 物 与 基因 的 只 具有 单 相关 性 
的 有 12 种 ,如 :利多 卡 因 酒石酸 长 春 瑞 滨 .长 春花 碱 等 。 
2.4 预测 结果 

本 文 将 乳腺 癌 的 基因 -基因 药物 -药物 和 基因 -药物 
之 间 的 所 有 关联 结果 一 一 验证 ,列表 显示 关联 程度 排名 
靠 前 但 尚未 报道 的 实体 对 ( 表 $) ,基因 的 中 文 名 称 是 对 
照 ( 英 汉人 类 基因 词典 > 得 到 的 。 

表 5 中 尚未 证 实 的 成 对 关联 ,可 为 研究 人 员 提 供 新 
的 研究 思路 ,例如 :基因 EZH2( 果 晶 味 增强 子 同 源 2) 与 
药物 阿 糖 胞 苷 在 本 文 的 研究 结果 中 显示 存在 关联 ,其 中 
基因 EZH2 是 细胞 增殖 所 必需 的 ,在 许多 肿瘤 组 织 中 存 
在 不 同 程度 的 高 表达 ,直接 参与 了 乳腺 癌 演 变 过 程 ,是 
肿瘤 发 生 早期 阶段 分 子 事件 号 ,而 阿 糖 胞 苷 主要 作用 于 
细胞 S 增 殖 期 的 喀 啶 类 抗 代 谢 药物 ,通过 抑制 细胞 DNA 


表 4 Lift 值 排名 前 15 的 乳腺 癌 基 因 药 物 
Tab.4 Top 15 associations between genes and drugs of the 
breast cancer selected according to Lift values 


Gene_Name DrugBank_ID Drug Name Lift 
Atg7 DB00173 Adenine 496 
CAVI DB00201 Caffeine 496 
CAVI DB01095 Fluvastatin 496 
PGRMCI DB04573 Estriol 496 
Hippo DB01076 Atorvastatin 414 
NOS2 DB01095 Fluvastatin 414 
POUSFI DB00970 Dactinomycin 414 
Hippo DB00641 Simvastatin 331 
NOS2 DB00641 Simvastatin 331 
EPCAM DB01004 Ganciclovir 310 
RASSFI DB00281 Lidocaine 284 
PFNI DB00173 Adenine 248 
MTHFR DB00158 Folic Acid 241 
NOS2 DB00435 Nitric Oxide 226 
ABCG2 DB01204 Mitoxantrone 199 


的 合成 ,干扰 细胞 的 增殖 ,目前 主要 应 用 于 白血病 关 ; H 
前 尚 无 文献 对 这 2 者 是 否 存在 关联 进行 报道 ,但 是 前 者 
作用 于 增殖 ,而 后 者 产生 抑制 作用 ,那么 这 2 个 生物 实 
体 之 间 可 能 会 存在 关联 。 
2.5 ROC 曲线 评价 

本 文 对 乳腺 癌 的 基因 -基因 .药物 -药物 和 基因 -药物 
之 间 的 所 有 关联 结果 进行 验证 ,并 在 SPSS 20 环 境 下 使 
用 ROC 曲线 判断 算法 性 能 (图 5)。 可 以 得 到 ROC 曲线 
下 的 面积 分 别 为 0.863 .0.819 和 0.763 ,关联 准确 度 中 等 
偏 上 ,相应 的 标准 误 分 别 为 0.068、0.054 和 0.027,P 值 均 
为 0.000,95% 置 信 区 间 分 别 为 (0.730,0.996) (0.713, 
0.925) 和 (0.710,0.816)。 本 文 算法 优 于 CoPub"" 生 物 
实体 关联 提取 算法 。 

通过 该 方法 ,验证 了 本 文 算法 具有 较 高 性 能 ,能 够 
提取 生物 实体 关联 。 与 其 他 关联 提取 算法 “*“ 类 似 ,本 
文 也 得 到 了 一 些 尚未 验证 的 实体 关联 , 即 有 一 些 假 阳性 
的 预测 性 的 结果 ,不 过 这 是 允许 的 ,因为 这 也 是 生物 实 
体 关 联 提取 所 需要 达到 的 目标 之 一 :提出 预测 性 的 研究 
假设 ,帮助 科研 人 员 设 计 相关 实验 方向 *。 


3 讨论 

本 文 在 近 2 年 乳腺 癌 相 关 文 献 中 识别 基因 药物 实 
体 ,提取 它们 之 间 的 关联 ,并 进行 集成 整合 预测 ,有 助 于 
生物 医学 研究 人 员 设 计 实 验方 向 。 


201712.02109v1 


chinaXiv 


ChinaXiv 合 作 期 刊 


.176: J South Med Univ, 2016, 36(2): 170-179 http://www.j-smu.com 


SOO Gu dm 9 e 


图 4 乳腺 癌 基 因 药 物 网 络 模型 

Fig.4 Breast cancer gene-drug network model (purple nodes are drugs, and yellow nodes are genes). A: 
Tree network diagram; B: Network diagram (based on vertex degree); C: Network diagram (based on 
vertex type). 
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RS 预测 部 分 关联 程度 较 高 但 尚未 证 实 的 生物 实体 间 新 关联 
Tab.5 Partial prediction of close relationships between biomedical entities that have not yet been confirmed 
Rel EN I Description 1 EN 2 Description 2 

ROCKI Rho-associated, coiled-coil containing TAZ Tafazzin 

protein kinase 1 
Gene-Gene GPER G protein-coupled estrogen receptor 1 TAZ Tafazzin 
YAPI Yes-associated protein 1 GPER G protein-coupled estrogen receptor 1 


May enhance the nephrotoxic effect of 
Iron 


Tron Salts. 
Atorvastatin Protease Inhibitors may increase the 
serum concentration of AtorvaSTATin. 
Drug-Drug 5 E Immunosuppressants may enhance the 
pa immunosuppressive effect of Tofacitinib. 
ie CYP3AA Inducers (Strong) may decrease 
Toremifene i " : 
the serum concentration of Toremifene. 
May enhance the nephrotoxic effect of 
Iron Iron 
Salts. 
EZH2 Enhancer of zeste 2 polycomb repressive 
complex 2 subunit 
PGRMCI Progesterone receptor membrane 
component 1 
Gene-D 
ee CAVI caveolin 1, caveolae protein, 22 000 
POUSFI POU class 5 homeobox 1 
Hippo Serine/threonine-protein kinase hippo 


EN: Entity name. Rel: Relationship. 
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May enhance the myopathic (rhabdomyolysis) 


Simvastatin effect of HMG-CoA Reductase Inhibitors. 
May enhance the anticoagulant effect of 
Vitamin E Anticoagulants. Vitamin E may also increase 
the overall risk for bleeding. 

: Immunosuppressants may enhance the 
Thigtepa immunosuppressive effect of Tofacitinib. 
Erlotinib May decrease the serum concentration of 

CYP3A4 Substrates. 
Gadodiamide is a gadolinium based contrast 
Gadodiamide agent used in MR imaging procedures to assist 
in the visualization of blood vessels. 
Cytarabine May enhance the adverse/toxic effect of 


Immunosuppressants. 


A hydroxylated metabolite of estradiol or 
Estriol estrone that has a hydroxyl group at C3-beta, 
16-alpha, and 17-beta position. 


HMG-CoA Reductase Inhibitors may enhance 


Fluvastatin : : 
the adverse/toxic effect of DAPTOmycin. 
Dactinomweln Immunosuppressants may enhance the adverse/toxic 
y effect of Natalizumab. 
: : Fluconazole may increase the serum concentration 
Simvastatin 


of Simvastatin. 
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Fig.5 Statistical evaluation of the receiver-operating characteristic (ROC) curve. 


在 得 到 的 乳腺 瘤 基因 药物 网 络 模 型 中 ,“ 节 点 "代表 
生物 医学 实体 存储 在 RDF 三 元 组 ( 即 疾病 药物 、 基 
),“ 边 "表示 两 生物 医学 实体 之 间 的 关联 (例如 ,关系 
“谓词 ")。 为 简单 起 见 , 在 本 研究 中 仅 考虑 单 向 关联 关 
系 ,在 原始 的 RDF 图 丢弃 方向 和 类 型 。 换 句 话 说 ,只 要 

节点 之 间 有 关联 , 即 认为 这 两 个 节点 之 间 有 边缘 。 假 
设 这 样 的 简化 疾病 药物 基因 的 关联 网 络 中 ,网 络 中 的 网 
络 模式 有 下 2 点 作用 :(1) 基 本 可 以 代表 疾病 基因 药物 


之 间 的 相互 关系 ;(2) 反 映 了 一 个 可 以 有 效 实现 特定 功 
能 的 框架 。 对 图 2、 图 3 和 图 4C 的 网 络 结构 进行 分 析 ， 
得 到 在 乳腺 癌 基 因 药 物 网 络 的 核心 中 ,药物 .基因 节点 
的 分 布 服 从 笑 律 分 布 ,表明 不 同类 型 节点 相关 的 网 络 属 
于 无 标 度 网 络 。 网 络 中 的 部 分 节点 只 有 少数 的 关联 ( 数 
<4) ,但 其 它 大 部 分 节点 均 有 大 量 的 关联 。 类 似 这 样 
的 分 布 ,许多 关于 生物 实体 网 络 的 研究 中 也 得 到 同样 的 
结果 "。 本 研究 分 析 表 明 ,在 一 个 具有 集成 性 质 的 异 质 
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关联 组 成 的 网 络 中 ,依然 具有 无 标 度 的 网 络 结构 。 

通过 对 基因 -基因 药物 -药物 和 基因 -药物 这 3 个 不 
同 的 网 络 模型 的 可 视 化 ,可 以 发 现 大 部 分 节点 都 可 以 通 
过 “第 三 者 节点 ”连通 ,从 而 发 现 它们 之 间 的 潜在 关联 ， 
定量 评估 实体 关联 。 通 过 网 络 模型 所 得 到 的 结果 ,可 以 
把 这 些 基因 药物 与 乳腺 癌 表 型 关联 在 一 起 ,有 助 于 发 
现 乳 腺 癌 中 的 候选 基因 和 候选 药物 ,以 及 基因 -基因 24 
物 -药物 和 基因 -药物 间 的 新 关联 。 例 如 ,对 基因 -基因 网 
络 模型 分 析 显 示 ,基因 ERBB2 是 该 网 络 模型 核心 节点 
之 一 , 它 是 细胞 膜 表 面 结合 的 受 体 酷 氨 酸 激酶 ,已 有 多 
篇 文献 [47-48 证 明 它 参与 了 乳腺 体 发 育 , 并 对 未 成 熟 
的 T 细 胞 在 胸腺 增殖 具有 负 调 控 等 ,是 可 能 导致 乳腺 
癌 、 胃 癌 、 卯 梨 癌 等 疾病 的 致 病 基因 ,同时 ,ERBB2 与 其 
它 基 因 的 关联 研究 也 取得 了 一 定 进展 *” ;另外 ,本 文 得 
到 基因 ERBB2 5j PIK3CA 可 能 存在 关联 ,而 PIK3CA 
基因 突变 是 乳腺 癌 肿 瘤 中 最 常见 的 突变 之 一 ,在 肿瘤 形 
成 过 程 中 有 着 重要 作用 ", 它 的 激活 可 引起 乳腺 癌 患 
对 靶 向 药物 曲 受 珠 单 抗 的 耐 药 包 ,两 者 之 间 的 关联 尚未 
见报 道 ,不 过 ERBB2 参 与 乳腺 腺 体 发 育 ,促进 细胞 增 
殖 ;PIK3CA 参 与 信号 转 导 ,促进 蛋白 结合 ,而 且 这 2 种 
基因 均 与 乳腺 癌 肿 瘤 的 早期 形成 有 着 密切 关系 ,可 推测 
这 两 者 可 能 存在 关联 。 

对 比 其 他 同类 算法 ,本 文 算法 优点 在 于 : (1) 不 仅 使 
用 经 典 的 ABC 理论 ,还 采用 了 关联 规则 进行 综合 评估 ， 
而 其 他 算法 大 多 只 使 用 ABC 理论 ; (2) 提 取 了 基因 - 基 
,药物 -药物 和 基因 -药物 这 3 种 不 同 的 生物 实体 关联 ， 
而 PubGene， 仅 提取 基因 -基因 间 的 关联 ,Sun 等 “提取 
的 是 药物 -药物 间 的 关联 ,CoPub"" 提 取 的 是 基因 -疾病 、 
药物 -疾病 和 药物 -生物 过 程 的 关联 ;(3) 本 文 算法 使 用 
ROC 曲线 验证 得 到 曲线 下 面积 分 别 为 0.863.0.819 和 
0.763, 而 Frijters 等 如 以 R-scaled 值 为 国 值 对 CoPub 所 
得 结果 进行 ROC 曲线 验证 ,曲线 下 面积 最 高 约 为 0.7 
(R-sacled 值 大 于 30),PubGene 仪 有 60% 的 精确 率 ， 
此 本 文 算 法 精确 度 更 高 。 本 文 已 成 功 将 算法 应 用 于 乳 
腺 癌 相 关 基 因 药物 关联 的 研究 中 ,下 一 步 工 作 就 是 需 
要 在 更 大 规模 数据 中 评估 本 算法 的 性 能 ,确保 进一步 推 
广 使 用 。 
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